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卷 积 神经 网 络 在 乐器 板材 优 劣 识别 中 的 应 用 研究 *” 
黄 英 来 ， 李 晓 钉 ,， 赵 ” 朋 


(东北 林业 大 学 信息 与 计算 机 工程 学 院 , 哈尔滨 150040) 


摘 要 : 目前 民族 乐器 板材 振动 信号 识别 算法 具有 特征 提取 复杂 且 耗 时 长 等 缺点 ， 针 对 此 问题 ， 提 出 了 一 种 基于 卷 积 
神经 网 络 的 木材 振动 信号 分 类 识别 算法 ， 实 现 了 乐器 板材 优 劣 的 判别 。 卷 积 神 经 网 络 将 特征 提取 和 分 类 过 程 结合 来 进 
行 神经 网 络 的 训练 ， 有 具有 识别 度 高 、 鲁 棒 性 好 等 优点 。 首 先 重点 分 析 和 讨论 了 提取 木材 振动 信号 的 语 谱 图 特征 ， 然 后 
应 用 卷 积 神经 网 络 结合 网 格 搜索 的 方法 进行 参数 调 优 。 为 了 防止 过 拟 合 ， 还 应 用 了 ReLU 和 Dropout 等 新 技术 ， 得 到 
最 终 分 类 结果 。 实 验证 明 ， 测 试 样本 准确 率 达 到 96%， 明 显 优 于 传统 方法 。 该 方法 可 减 小 人 工 测 量 的 误差 ， 加 快板 材 
的 选取 时 间 ， 为 民族 乐器 制造 领域 的 选材 提供 了 一 种 更 加 实用 的 方法 。 
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Research on wood quality for musical instrument recognition using convolutional neural 
network 


Huang Yinglai, Li Xiaoshuang, Zhao Peng 
(College of Information and Computer Engineering, Northeast Forestry University, Harbin 150040, China) 


Abstract: At present, the vibration signal recognition algorithm for national musical instrument plate has the shortcomings of 
complex feature extraction and time-consuming. To solve this problem, this paper proposed a classification algorithm of wood 
vibration signal based on convolution neural network, to identify the quality of the musical instrument. Convolution neural 
network combines feature extraction and classification process to train the neural network, which owns the advantages of high 
recognition rate and good robustness. Firstly, this paper mainly analyzed and discussed spectrogram characteristics of the 
extraction of wood vibration signals. Then combining convolution neural network and grid search method, it can adjust the 
parameters. In order to avoid over-fitting, the final classification results were obtained by using new technologies such as ReLU 
and Dropout. The experiments showed that the accuracy of the test sample reached 96%, which are obviously better than the 
traditional method. This method can reduce the error of manual measurement and speed up the selection time of the plate, and 
provide a more convenient method for the selection of the national musical instrument manufacturing field. 
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0 ”引言 化 ， 人 类 对 于 乐器 各 方面 的 要 求 也 变 的 越 来 越 高 。 许 多 民族 乐 
器 的 制作 都 离 不 开 木 材 ， 木 材 的 声学 振动 特性 也 大 大 影响 着 乐 

近 些 年 来 ， 随 着 我 国 经 济 的 快速 发 展 和 我 国人 民 物 质 生活 “器 的 质量 ， 因 此 对 乐器 板材 质量 优 劣 识 别 的 研究 和 应 用 有 具有 重 

的 提高 ， 人 们 开始 喜欢 上 了 民族 乐器 ， 民 族 乐 器 演奏 出 的 优美 ”要 的 现实 意义 。 
的 旋律 不 仅 可 以 陶冶 品格 情操 ， 拓 宽 艺 术 视野 ， 还 可 以 缓解 高 当前 国内 外 常用 的 乐器 板材 质量 优 劣 识别 方法 有 : 中 国 林 
什 压 力 ， 甚 至 有 很 多 外 国人 也 对 民族 乐器 兴趣 大 增 ， 业 科 学 研究 院 木 材 工 业 研 究 所 的 李 源 哲 、 李 先 泽 ， 与 北京 乐器 

这 使 得 我 国 的 民族 乐器 产业 也 有 了 一 定 程度 的 发 展 。 中 国民 族 。 研究 所 的 汪 溪 果 ， 王 书 勤 提 出 了 声波 激发 试 样 振动 的 方法 对 我 
乐器 的 发 展 历史 悠久 凹 ， 并 且 作 为 中 国 传统 文化 的 载体 ， 拥 有 31 种 主要 树种 进行 声学 性 能 研究 所 ; 东北 林业 大 学 的 沈 售 博 
丰富 的 文化 底蕴 和 民族 特色 ， 乐 器 的 构造 和 种 类 也 越 来 越 多 样 ” 士 与 刘 一 星 教授 全 面 、 系 统 地 研究 了 纤 丝 角 云 杉 属 木材 的 声 
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动 特性 ， 分 析 了 各 声学 参数 的 变异 规律 以 及 
揭示 了 云 杉 属 木材 各 种 构造 因子 对 振动 性 能 产生 的 影响 申 。 则 


其 相互 间 的 联系 ， 


挠 性 振动 内 磨擦 Q7 


元 京 通过 测定 针叶树 材 动态 弹性 模 量 EE'、 
及 静 曲 弹性 模 量 E 等 参数 来 评定 木材 的 声学 性 质 内 ，Sobue、 
Tonosaki 等 人 对 木材 的 动态 弹性 模 量 , 辐射 阻尼 常数 RR、 声 速 、 


声音 特性 阻 


价 说 明 云 杉 


采用 
材 进行 分 等 


抗 w、 动 力 损 耗 角 


四。 虽然 这 些 方 法 


择 ， 但 是 大 多 是 从 木材 声学 属性 参数 方 
且 过 程 复 杂 且 耗 时 较 长 ， 这 些 都 是 传统 方法 的 


属 木材 是 制作 乐器 音 板 的 最 佳 用 
弹性 测试 仪 与 应 力 波 无 损 评价 技术 对 乐器 音 板 的 云 衫 属 木 


正 霓 tan 5 /E 及 tan 5 等 参数 来 评 


材 5 9，Treu 等 人 


都 实现 了 乐器 板材 质量 优 劣 的 选 


面 进 


行 实验 及 分 析 的 ， 


局 限 性 。 目 
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随 着 深度 学 习 和 计算 机 技术 以 及 声音 识别 技术 的 发 展 ， 可 以 考 


虑 用 新 的 方 
献 发 现 将 深 


-er 
常 少 ， 
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十 
三 二 
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分 类 识 
深度 学 
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的 快 


度 学 


进展 ， 其 
中 的 热 


别 方面 。 


法 来 实现 更 快 并 且 更 准确 的 乐器 选材 ， 根 据 查 阅 文 
度 学 习 用 于 木材 振动 声音 信号 的 识别 方面 
所 以 尝试 将 深度 学 习 卷 积 家 


1 的 古 


究 非 


申 经 网 络 方法 应 用 到 木材 振动 


习 中 是 基于 人 工 神经 网 络 发 展 起 来 的 技术 ， 随 着 深 
速 发 展 ， 声 音 识 别 领 域 取得 的 成 绩 也 有 了 突破 性 的 


中 卷 积 神经 网 络 CNNBI 已 经 成 为 图 像 识 别 和 声音 识别 
门 研究 方向 之 一 ， 它 拥有 着 独特 的 网 络 结构 ， 通 过 引 


入 


别 正 是 满足 此 需求 


的 新 方法 。 


1 ” 卷 积 神经 网 络 的 结构 


卷 积 神经 网 络 


是 一 种 经 典 的 前 乌 


和 反 向 传播 两 个 过 程 。 卷 积 神经 


(convolution layer)、 下 采样 层 (pooling 


connection layer )， 


经 网 络 LetNet-5 


着 ECl 


着 各 核 (Kernel) 


区 


1 是 一 种 比较 经 
2 网 络 结构 。 


着 C2 下 采样 后 2 全 过 接 层 Pl， 
16@10x10 16@5x5 


下 采样 1 
6@14x14 


“ 卷 积 ”和 “ 降 采 样 ” 操 作 ， 可 以 实现 对 多 维 的 输入 特征 进行 


处 理 


， 其 实 


但 此 时 的 CNN 在 小 
规模 的 数据 。2012 年 Hinton 教授 00 和 他 的 
的 卷 积 神经 网 络 模型 在 闻名 世界 的 Im 


卷 积 神 经 网 
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Mb 旧 一 1 
得 了 出 乎 意 


“频谱 阅读 


沃 森 研究 组 
别 效 果 ， 最 


与 CNN 


博士 bi 提出 了 声音 


果 ， 这 标志 着 声音 习 


料 的 好 成 果 ， 这 标 


志 着 CNN 在 


络 早 在 2006 年 以 前 就 被 人 们 提出 来 了 ， 
片 的 识别 方面 效果 较 好 ， 不 适合 识别 大 


学 生 利用 更 深 


层次 


age Net 问题 上 ， 结 果 取 


图 像 识 别 领域 逐渐 


占据 了 主导 地 位 。 在 2014 年 左右 , 来 


南洋 理 


大 学 的 Dennis 


的 频谱 图 像 特征 ， 他 是 受 


启发 于 Zue 的 


”(spectrogram reading)03]， 并 取得 了 很 好 的 识别 结 


和 件 识 别 的 突破 性 进展 。 多 伦 多 大 学 和 IBM 


04 对 于 CNN 模型 的 声音 输入 特征 分 类 从 而 测试 识 
后 得 出 将 声音 特征 滤波 器 组 系数 (filterbank) 作为 
声音 特征 输入 时 的 识别 效果 最 好 。Hamid 等 人 05 将 NN/HMM 


因此 ， 基 于 卷 积 神经 网 络 


术 得 到 ] 
点 之 一 。 对 
有 弹性 的 固 
量 。 木 材 能 


Im| 
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泛 的 关注 ， 为 当前 


的 图 像 识别 ! 
图 像 以 及 声音 


结合 用 于 语音 识别 中 ,在 LVCSR 数据 库 上 取得 了 成 功 。 
9 技术 、 声 音 识 别 技 


识别 领域 的 研究 热 


木材 样本 的 敲 击 声 


体 材料 ， 能 依靠 它 
够 在 冲击 力 的 作用 


而 发 出 优美 
就 越 优良 ， 
据 01。 这 种 
特征 之 一 语 


声音 的 多 种 特征 信息 ， 动 态 的 显示 出 信 
盲 号 的 频谱 特性 和 完整 信息 。 所 以 本 文 提出 的 
过 提取 木材 振动 声音 信号 的 语 谱 


分 反映 了 声 


音色 的 乐音 ， 
这 种 特性 是 木材 能 


人 


声音 分 类 识别 的 关键 在 于 特征 


是 一 种 典型 的 
的 弹性 介质 作 
下 ， 由 自身 的 


学 性 能 越 好 ， 
够 广泛 应 用 于 


瞬 态 声 ， 木 材 是 具 
用 来 传递 声波 的 能 
扑 动 辐射 声 能 ， 从 
有 的 声 共振 特性 
乐器 制作 的 重要 依 


提取 ， 而 声音 信号 的 


谱 图 I 


9 具有 很 强 


2 
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的 实用 价值 ， 


Sn 


图 特征 并 应 


号 频谱 的 变化 情况 ， 


已 给 出 了 木材 振动 
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应 


经 网 络 ， 包 括 正 向 传播 
网 络 一 般 包括 卷 积 
layer) 和 全 连接 层 (fully- 


三: 
去 


。 卷 积 核 


通常 选择 3X3 或 5X5 


FE， 这 样 n 个 卷 积 核 就 


图 1 LeNet-5 网 络 结构 

1.1 卷 积 层 
卷 积 层 (convolutional layer) 也 被 称 为 Convlayer， 它 构成 

了 CNN 的 基础 ， 由 多 个 特征 面 (Feature Map) 组 成 ， 直接 对 原 
始 输 入 信号 (一 般 为 二 维 信号 ， 图 人像) 进行 卷 积 操作 
是 一 个 权 值 矩阵 ， 它 的 大 小 自行 设置 ， 
模板 。 卷 积 核 以 一 定 的 步 长 在 特征 图 上 进行 “滑动 ”每 滑动 一 
次 就 进行 一 次 卷 积 操作 ， 通 过 多 次 的 卷 积 操作 提取 输入 信号 的 
不 同 特征 ， 每 一 个 卷 积 核能 提取 一 种 特 和 
可 以 提取 n 种 特征 。 通 常 卷 积 层 的 计算 形式 如 式 〈1) 所 示 。 

X=/ +b) 

1 


其 中 : /() 表 激 活 函 数 ( 可 以 是 Sigmoid、Tanh 等 非 线 人 
K 代表 卷 积 核 ，1 代表 卷 积 层 数 ，M ,是 输入 层 的 感受 野 ，b 代 


表 每 个 输入 图 的 一 个 偏 置 值 。 
1.2 池 化 层 
卷 积 层 是 池 化 层 的 输入 


慨 ， 池 化 层 即 图 像 的 下 采样 层 ， 


常会 在 连续 的 卷 积 


用 池 化 函数 来 进 
置 的 相 邻 输出 的 总 


期 插入 


屋 之 间 定 


步调 整 这 一 层 的 输 


如 , 本 文中 | 


区 域 
平均 
池 化 


层 的 一 般 形式 


值 、L2 范 数 以 及 基于 距 上 


个 池 化 层 ， 它 的 功能 是 减 
少 网 络 中 的 计算 量 和 参数 ， 从 而 也 可 以 控制 过 拟 合 。 本 文 会 使 


(1) 


函数 )， 


通 


上 ， 池 化 函数 使 


用 某 一 位 
体 统计 特征 来 代替 网 络 在 该 位 置 的 输出 。 例 
到 的 最 大 池 化 函数 (max pooling ) 给 出 相 邻 矩形 
内 的 最 大 值 。 其 他 常用 的 池 化 函数 包括 相 邻 矩形 


区 域内 的 


如 式 (2) 所 示 。 
x =f(Pp(x7) 


P 心 像素 距离 的 加 权 习 


+b’) 


其 中 ， 表示 权重 系数 ，p〈. ) 表示 池 化 函数 。 


1.3 全 连接 层 


全 连接 


接 ， 经 多 个 卷 积 
输出 最 后 的 分 类 结 


果 。 最 后 一 层 的 输 t 


H 值 传递 到 输出 


F 均 函数 。 


2) 


屋 的 每 个 神经 元 将 和 上 一 层 的 全 部 神经 元 进行 全 连 
屋 和 池 化 层 后 ， 连 接着 一 个 或 多 个 全 连接 


层 来 
民 ， 对 于 
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本 文 的 多 分 类 问题 ， 采 用 softmax 
同 种 类 的 概率 分 布 情况 

1.4 其 他 常用 层 
人 


Droponut 层 等 


过 程 中 可 能 会 学 习 到 如 弥 数据 的 噪声 ， 


是 很 多 时 , 在 训练 
时 致 出 现 过 拟 合 现象 ， 


已 的 具体 表现 就 是 模型 在 训练 集 上 和 测试 集 


层 可 以 得 到 当前 样本 属于 不 


些 常用 的 层 ， 如 激活 层 和 


听觉 特性 ， 在 噪声 环境 中 的 鲁 棒 性 不 好 ， 尽 管 M 
特征 相 比 有 明显 优势 ， 但 是 基于 本 文 的 算法 考虑 ， 声 音信 号 的 
语 谱 图 特征 要 更 有 优势 ， ( 


Chi InaX1 IV 合作 
黄 英 来 ， 等 Ph 别 


< 


谱 图 不 仅 可 以 保留 更 多 的 信息 


] 卷 积 和 池 化 操作 来 表示 和 


匠 


上 的 效果 相差 较 大 ， 


模型 泛 化 能 力 弱 ， 所 以 本 文 在 网 络 的 训练 部 分 加 入 这 2 层 可 以 


有 效 的 防止 过 -ad 


本 文 的 激活 层 
激活 函数 请 ， 它 能 


当 输 入 值 为 正 数 
负数 值 时 ，ReLU 函数 将 它 设 


性 单元 (rectified linear unit, ReLU ) 


压缩 ”到 0 到 了 
ee 当 输 入 值 为 
为 零 ， 除 此 之 外 还 有 Tanh 和 


E 无 穷 大 范围 内 ， 


Sigmoid 函数 等 。 相 比 之 下 ， J 的 收敛 速度 快 很 多 ， 


会 加 快 网 络 的 训练 速度 ， 

需要 去 计算 大 量 
其 数学 形式 如 式 (3) 所 示 。 

ReLU(x) = max(0, x) 

很 显然 ， 从 公式 可 以 看 出 ， 输 入 信号 小 于 0 时， 输出 都 

0; 输入 信号 大 于 0 的 情况 下 ， 输 出 等 于 输 


EE 复杂 的 运算 。ReLU 激活 


ReLu 函数 会 使 部 分 神经 元 世 


偷 出 结果 为 0, 不 仅 使 网 络 具 有 ] 


就 可 以 得 到 激活 值 ， 不 
函数 是 一 个 分 段 函数 ， 


是 
此 可 以 看 出 


稀 疏 性 ， 还 减少 了 参数 间 的 依存 关系 ， 有 效 的 缓解 了 过 拟 合 问 


题 。 


Dropoute!1 层 
防止 过 拟 合 方 法 ， 本 文 在 网 络 
相当 于 从 原来 的 网 络 变 成 一 个 


节点 随机 以 一 定 的 概率 p 被 设 
表示 随机 输出 50% 的 神 
即时 状态 作出 响 


i 层 后 , 是 一 种 很 好 的 
的 训练 部 分 加 入 Dropout 技术 ， 

继续 训练 ， 每 一 个 
验 中 将 p 设 置 为 0.5， 
于 网 络 节 点 不 会 对 其 他 节点 的 


挥 作用 的 情况 ， 


有 nn 个 单元 的 神经 网 
的 集合 。 这 些 网 


工 


或 者 更 少 。 对 于 每 个 训练 


Tt 


络 被 抽 村 


训练 。 所 以 训练 


可 以 被 看 做 是 训练 
的 集合 。 网 络 的 泛 化 能 力 得 到 提高 ， 


2 ”特征 提取 


目前 在 声音 识别 领域 常用 
系数 (LPCC)、Mel 频率 倒 衣 
基于 符合 人 耳 听 觉 特 性 提出 
声音 的 产生 机 制 特性 ， 


他 特定 节点 下 发 


4 单元 组 成 。 一 个 具 
能 的 稀 朴 神经 网 络 
mn 
的 每 一 个 演示 ， 一 个 新 的 稀 朴 网 
] dropout 技术 的 神经 网 络 
值 共享 的 ”的 细 化 网 络 
有 更 好 的 适应 性 。 


征 参数 有 线性 预测 倒 谱 


其 中 MFCC 特征 是 
它 同时 结合 人 耳 的 听觉 机 理 与 


音 产 生 模型 的 假定 ， 


与 声音 信号 的 实际 频率 成 非 线性 对 应 关系 ， 在 一 定 程 度 上 模拟 


了 人 耳 对 声音 的 处 到 


特点 ,在 响声 环境 9 


见 出 不 错 的 鲁 棒 性 ， 


近年 来 被 广泛 的 应 用 


， 并 取得 了 良好 的 效果 。 


而 LPCC 是 基于 发 音 模型 


4 建立 的 ， 此 参数 没有 充分 才 虑 人 耳 的 


已 
[ay 
是 
YH 
二 


语 
TH Lh 
括 可 能 的 见 余 信息 ), 而且 还 能 够 
: 全 


型 的 声音 不 变 ; 


语 谱 图 特征 ， 语 谱 图 即 声音 频谱 图 ， 
像 ， 不 仅 可 以 使 用 语音 信号 处 理 的 知识 ， 还 可 以 融合 图 像 处 理 
技术 ， 即 将 图 像 处 理 技术 应 用 到 语音 处 理 方面 ， 因 此 把 声 谱 加 


区 
生 和 变异 性 。 因 此 本 文 重点 研究 提取 
图 ， 即 将 音频 转换 为 语 谱 图 


音 相 关 的 特征 信息 , 它 的 横 坐 标 表示 时 间 , 纵 坐标 表示 频率 ， 


量 ( 即 声音 强度 ), 能 量 是 通过 颜色 的 浓淡 来 表示 出 来 的 ， 颜色 


] 于 声音 事件 识别 中 是 很 有 前 景 的 。 语 谱 图 显示 了 大 量 的 和 


E 标 (x,y) 对 应 的 点 表示 在 时 间 x， 频 率 y 上 的 语音 数据 能 


越 深 ， 表 示 该 点 的 语音 能 量 越 强 ， 这 样 就 采用 了 二 维 平面 来 


站 


维 信息 。 语 谱 图 有 很 强 的 实用 价值 ， 其 综合 了 时 域 波形 和 


频谱 图 的 特征 ， 明 显 的 显示 出 声音 特征 随时 间 变 化 的 情况 ， 这 
在 波形 图 中 是 无 法 展现 的 ， 如 图 2 所 示 。 


原始 语音 信号 
T T T 


幅 值 


-1 1 1 1 1 1 1 1 1 
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 


样本 序列 n 
忆 2 ”原始 木材 振动 信号 的 波形 图 


语 谱 图 的 整个 提取 过 程 如 图 3 所 示 。 


声音 信号 >| 预 加重 | ”| 降 噪 /静音 剪 切 一 > 分 帧 加 窗 


语 谱 灰 度 图 es 站] 归 一 化 量化 玉生 成 语 谱 图 < 一 | 短 时 傅 里 叶 变换 


四 3 “特征 提取 算法 流程 图 


木材 振动 声音 之 外 的 噪声 和 静音 段 ， 这 些 


音信 号 中 包含 
因素 都 会 影响 声音 特征 的 性 能 ， 品 声 会 减弱 信号 中 的 部 分 有 效 


言 息 ， 而 静音 段 会 影响 声音 信号 在 语 谱 图 的 位 置 ， 因 此 为 使 实 
验 结果 更 加 准确 ， 需 要 对 声音 进行 降 品 和 静音 剪 切 ， 原 始 语 谱 
轩 和 经 过 处 理 后 的 语 谱 图 如 图 4 和 5 所 示 。 


司 4 ”原始 木材 振动 信号 语 谱 


录用 稿 


图 5 经 过 去 噪 .静音 剪 切 后 的 语 谱 图 


黄 英 未 ， 等 : 郑 积 神经 同 络 在 永 器 板材 伐 劣 识 蜀 中 的 全 用 研究 * 
本 文 使 用 STFT 把 声音 信号 转换 成 语 谱 图 以 提取 特征 ， 并 把 语 
谱 图 的 空白 部 分 剪 切 掉 以 减少 计算 量 ， 提 高 精度 的 匹配 。 
3 ”实验 方法 与 结果 分 析 


3.1 实验 声音 样本 集 及 实验 环境 
本 文 实验 声音 数据 是 通过 在 安静 的 实验 室 里 利用 对 相同 大 
小 、 不 同 优 劣 质量 的 的 兰考 泡桐 木板 进行 融 击 的 方式 获取 的 ， 


采集 设备 为 录音 笔 ， 通 过 对 3 种 不 同 优 劣 等 级 的 木板 的 不 同位 
置 进行 反复 声波 采集 ， 得 到 采样 率 为 44.1KHz 的 单 声 道 16 位 


H 


wav 格式 的 声音 文件 ， 然 后 使 用 CoolEdit 软件 对 原始 声音 样本 


首先 对 声音 信号 进行 预 加 重 处 理 ， 目 的 是 提升 木材 振动 
音 的 高 频 部 分 ， 更 有 助 于 进行 整个 振动 声音 信号 的 频谱 分 析 ， 
方法 是 采用 一 个 一 阶 的 高 通 滤波 器 ， 站 学 表 达 式 如 下 : 


H(z =1- 127 (4) 
其 中 : 为 预 加 重 系 数 ， 取 值 接近 于 1， 本 实验 中 j=0.97。 
然后 进行 分 帧 加 窗 和 短 时 傅 里 时 变换 处 理 ， 即 


M-1 
Xk)= Ex mome"™ 0<k<N -1(5) 
m=0 


其 中 : n 是 时 域 采样 点 序列 , n=0,1，…,N-1 (NW 是 信号 长 度 ); 
x(m) 为 经 过 分 帧 处 理 后 的 声音 信号 , m= 0,1,…M-1, 其 中 六 是 
贞 同 步 时 间 序 号 ，n 是 帧 序号 ，w(m) 为 汉 明 窗 函数 ， 可 以 减轻 


加 窗 操作 导致 的 声音 不 连续 性 ， 其 定义 为 
oD 0.54 一 046cos( SS 1 (6) 
0 i 


其 中 : 工 为 窗 长 ， 一 般 情况 下 帧 长 取 10~30ms 时 可 认为 信号 是 
平稳 的 ， 本 实验 取 帧 长 为 512 点 ， 帧 与 帧 之 间 的 交 著 部 分 为 帧 
移 ， 帧 移 一 般 取 帧 长 的 一 半 ， 即 256 点 ; 由 上 述 过 程 可 得 到 语 


谱 图 


其 次 ， 采 用 对 数 能 量 的 方法 生成 语 谱 图 5,,,(x,y) ， 即 


Si (X,y)=20log(| Xx, y)) (7) 


其 中 : x{1,2, .如 ,yy 1， 2，… 因 为 语 谱 图 像素 的 二 维 坐 标 ， 
其 中 马 了 分 别 表 示 语 谱 图 横 、 纵 坐标 的 最 大 值 。 

最 后 ， 利 用 最 大 最 小 归 
进行 归 一 化 ， 归 一 化 的 作用 是 为 了 实现 数据 规范 化 ， 使 其 灰 
变化 范围 为 [0,1]， 从 而 保证 样本 数据 具有 统一 的 统计 分 布 性 ， 
以 便 后 面 的 处 理 更 加 准确 和 方便 ， 归 一 化 过 程 定义 如 下 : 

S(%y)—min(S(x, y)) 
max(S(Xx,y)) —min(S(x, y)) 
其 中 : min(S (x, y))，max(S(x, y)) 分 别 代 表 时 频 和 矩阵 中 最 
小 值 和 最 大 值 。 通 过 归 一 化 处 理 得 到 [0,1] 内 的 时 频 和 矩阵 G (x， 
y)。 然 后 以 G(x，y) 作为 灰 度 强度 值得 到 灰 度 语 谱 图 。 
提取 木材 振动 信号 的 特征 来 进一步 分 析 和 识别 木材 的 质量 
是 非常 关键 的 一 步 , 它 直 接 影响 后 面 实验 的 识别 速度 和 准确 度 ， 


化 (mapminmax) 方法 对 语 谱 图 


) 寺 


G(x,y)= (8) 


进行 切割 筛选 ， 进 而 得 到 单个 的 声音 样本 以 方便 后 续 实 验 ， 测 
试 样本 格式 是 116*80 像素 的 1 通道 ， 灰 度 图 ， 数 量 为 7319 个 


样本 。 测 试 集 是 2196 个 样本 。 实 验 数据 的 具体 信息 描述 如 表 1 
所 示 。 
表 1 实验 数据 具体 信息 
训练 样 ” 测试 样 。” 总 样本 数 
材料 类 别 ”板材 数量 
本 数 / 个 本 数 /个 俱 
优良 11 1785 765 2550 
一 般 10 1636 701 2337 
较 差 10 1702 730 2432 
最 新 的 神经 网 络 库 kerast”31 引 起 了 广泛 的 关注 。 用 Theano 


或 TensorFlow 作为 后 端 , 本 文 对 原始 木材 振动 信号 进行 特征 提 
取 时 ， 采 用 matlab2016a 编程 软件 ， 搭 建 的 卷 积 神经 网 络 均 基 
于 Linux 平 台 ,Keras 运行 在 Python3.5 后 端的 Tensorflow 框架 
3.2 ”实验 及 结果 分 析 
3.2.1 基于 网 格 搜索 的 CNN 模型 调整 

本 文 数据 量 不 是 很 大 ， 所 以 考虑 使 用 基于 网 格 搜索 鸣 的 方 
法 调整 不 同 参数 设置 来 拟 合 CNN 模型 ， 从 而 避免 参数 选择 的 
随意 性 和 盲目 性 。 Os 
代 次 数 epochs、 批 量 batch_ size 等 参数 通过 网 格 搜索 的 办 法 ; 
行 参数 优化 ， 实 验 参 数 设置 及 结果 如 表 2 所 示 ， 根 据 实 验 结果 
得 出 以 下 结论 : 

a) 批量 太 小 (比如 1) 阻碍 了 网 络 的 融合 ， 而 批量 太 大 缩 
小 了 和 迭代 次 数 ， 从 而 导致 需要 更 长 的 时 间 去 达到 很 好 的 精度 ， 
根据 程序 结果 建议 将 批量 值 设 置 为 64。 

b) 正则 化 ，Dropout 是 一 种 简单 并 常用 的 正则 化 技术 ， 适 
于 防止 过 度 拟 合 。dropout 率 经 过 测试 从 0.5 到 0.2， 并 通 
测试 建议 取 值 为 0.3。 

c) 从 代 次 数 是 指 将 训练 集 输入 到 神经 网 络 中 进行 训练 的 次 
数 。 当 测试 错误 率 和 训练 错误 率 相差 较 小 时 ， 当 前 的 迭代 次 数 
被 认为 是 最 合适 的 ， 否 则 需 调 整 网 络 结构 或 增 大 友 代 次 数 ， 本 
文选 择 10 次 作为 epochs 最 佳 取 值 。 

d) 优化 器 optimizer 的 种 类 很 多 ， 比 如 SGD、RMSprop、 
Adadelta、Adam， 经 过 实验 程序 测试 ， 选 择 Adam 优化 器 进行 
后 续 实 验 。 


0 
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表 2 网 格 搜 索 结 
类 别 Dropout Batch size Epochs Optimizer 
1 0.2 32 5 sgd 
2 0.3 64 10 adam 
3 0.4 128 15 rmsprop 
4 0.5 256 20 adadelta 
最 优 解 0.3 64 10 adam 


3.2.2 不 同 CNN 网 络 结构 对 比 实验 
本 文 搭建 的 CNN 采用 3 类 结构 ， 参 数 设置 如 下 所 示 《〈 卷 
积 层 用 C 表示 ， 降 采样 层 用 了 表示 ， 全 连接 层 用 上 表示 )， 卷 
积 层 后 均 加 入 激活 层 (RuLU) , 池 化 层 后 均 加 入 Dropout 层 
(Dropout 率 取 值 为 0.3 ): 

a) 采用 “Cl+P1+F1+F2 层 ” 结 构 ，C1l 层 卷 积 核 设置 为 16 
个 ， 大 小 为 3*3; P1 大 小 为 2*2， 采 用 最 大 值 池 化 输出 ;Fl 
节点 数 为 64，F2 层 节点 数 就 是 输出 类 别 即 3， 表 示 为 CNN-1。 

b) 采用 “C1+P1+C2+C3+P2+F1+F2 层 ” 结 构 ， 其 他 层 与 
CNN-1 结构 相同 ，C2 层 卷 积 核 设置 为 32 个， 大 小 为 3*3; C3 
层 卷 积 核 设置 为 32 个 ， 大 小 为 5*5; P2 大 小 为 2*2， 采用 最 大 
值 池 化 输出 ;表示 为 CNN-2。 

c) 采用 “C1l+C2+P1+C3+C4+P2+F1+F2 层 ” 结 构 ， 其 他 
与 CNN-1 结构 相同 ，C2 层 卷 积 核 设置 为 16 个 ， 大 小 为 3*3，; 
C3 层 卷 积 核 设置 为 32 个 ， 大 小 为 3*3; C4 层 卷 积 核 设 置 为 32 
个 ， 大 小 为 5*5; P2 大 小 为 2*2， 采 用 最 大 值 池 化 输出 ， 表 示 
为 CNN-3。 

对 三 种 卷 积 结构 进行 训练 和 分 类 效果 测试 ， 实 验 结果 如 图 
6~11 所 示 。 
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图 7 CNN-1 实验 损失 值 
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图 8 CNN-2 实验 准确 率 
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图 9 CNN-2 实验 损失 值 
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图 10 ” CNN-3 实验 准确 率 
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图 11 CNN-3 实验 损失 值 


由 以 上 结果 图 


可 知 , 采用 本 文 提 


较 高 ， 并 且 准 确 率 


线 和 损失 值 


线 最 


CNN-1、CNN-2 相 


尽管 实验 | 


比较 低 ， 


一 次 完整 迭代 (所 


val_loss 表示 测试 外 
率 。 在 CNN-2 模型 


上 图 中 的 loss 表示 


出 的 CNN-2 分 类 的 识别 率 
平滑 ， 实 验 运 行 时 间 适 
时 最 少 ,测试 集 识 别 率 较 高 , 但 训练 
识别 率 偏 低 :， CNN-3 的 曲线 图 有 些 不 平滑 ， 而 且 识 别 率 和 
且 运 行 时 间 最 长 。 一 次 epoch 是 
样本 都 训练 过 ), 这 里 本 文 用 了 10 次 迭代 ， 
1 练 集 损失 值 ，acc 表示 训练 集 准确 率 ; 


关上 的 损失 值 ，val_ acc 表示 测试 集 上 的 ; 


住 确 
中 , 最 后 一 次 迭代 就 可 以 收敛 到 96% 的 预测 
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准确 率 了 ， 对 于 每 个 类 别 的 木材 振动 声音 识别 准确 率 和 召回 率 


等 参数 结果 如 表 3 所 示 。 


表 3 CNN-2 实验 结果 


类 别 准确 率 ”召回 率 Fl- 值 ”测试 样本 数量 
0 优良 》 0.95 0.97 0.95 765 
1 (一 般 ) 0.96 0.97 0.96 701 
2( 较 差 ) 0.97 0.94 0.97 730 
平均 率 0.96 0.96 0.96 2196 


综合 上 述 对 比 实验 结果 可 得 ，CNN-2 结构 取得 的 实验 效果 
最 好 ， 并 且 层 数 越 少 的 结构 花费 的 运行 时 间 越 少 ， 但 是 越 少 的 
导数 会 伴随 着 越 多 的 权重 ， 这 同时 也 增加 了 记忆 负担 ， 这 也 是 
CNN-2 优 于 CNN-1 的 原因 ,一 个 卷 积 核 只 能 检测 一 种 特征 ( 比 
如 图 片 的 纹理 , 垂直 方向 的 边缘 ), 而 语 谱 图 中 的 特征 往往 比较 
复杂 ， 一 个 卷 积 核 显然 是 不 够 的 ， 所 以 在 神经 网 络 的 卷 积 层 中 
会 有 多 个 卷 积 核 ， 不 同 的 特征 图 含有 不 同 的 特征 ， 这 样 卷 积 层 
的 输出 就 会 有 多 层 。 而 卷 积 核 数 目的 设置 一 般 按照 偶数 倍 递增 ， 
特征 图 越 多 是 为 了 提取 更 多 的 特征 ， 但 同时 卷 积 核 越 多 ， 需 要 
处 理 的 参数 就 越 多 ， 为 降低 模型 的 复杂 度 ， 所 以 本 文中 卷 积 核 
的 个 数 设置 均 没 有 超过 32 个 ,其 中 CNN-3 网 络 结构 更 加 复杂 ， 
与 CNN-2 相 比 多 一 层 带 有 32 个 卷 积 核 的 卷 积 层 ， 因 此 训练 
CNN-3 结构 需要 更 多 的 参数 ， 训 练 效率 较 低 ， 而 且 正 确 率 也 没 
有 得 到 提升 ， 这 说 明 在 卷 积 神经 网 络 的 训练 过 程 中 ， 简 单 的 增 
加 神经 网 络 中 的 卷 积 核 个 数 ， 提 高 网 络 结构 的 复杂 性 并 不 能 对 
应 的 提高 其 分 类 性 能 。 而 其 他 因素 如 好 的 网 络 经 验 参 数 、 合 适 
的 迭代 次 数 、 批 量 值 等 对 分 类 器 的 性 能 也 能 产生 一 定 的 影响 。 

语 谱 图 能 有 效 的 表示 不 同 优 劣质 量 木 材 的 振动 声音 信号 的 
特征 ， 相 比 于 其 他 网 络 ，CNNN 的 降 采 样 操 作 具 有 尺度 平移 不 变 
性 ， 降 低 了 特征 图 的 维度 ， 可 以 避免 过 拟 合 ; CNN 局 部 区 域 感 
知 操作 ， 既 可 以 降低 噪声 ， 又 可 以 增强 语音 特征 ， 而 且 能 更 好 
的 分 析 能 量 分 布 情况 。 
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本 文 在 对 木材 振动 信号 识别 问题 上 引入 了 深度 学 习 卷 积 
经 网 络 方法 ， 并 结合 图 像 识别 技术 提出 提取 木材 振动 信号 的 语 
谱 图 特征 。 本 文 还 在 参数 调 优 以 及 卷 积 神经 网 络 结构 上 展开 研 
究 ， 将 CNN 作为 分 类 器 应 用 到 识别 系统 中 ， 通 过 网 格 搜索 技 
术 获 得 最 优 参 数 ， 实 验 结果 表明 ， 所 提出 的 算法 具有 较 好 的 有 
效 性 ， 和 之 前 的 检测 方法 相 比 ， 更 具有 科学 性 和 实用 性 。 本 文 
实验 中 的 样本 数量 以 及 网 络 性 能 方面 还 存在 不 足 ， 在 未 来 的 研 
究 工作 中 ,我 会 收集 更 多 的 兰考 泡桐 的 声音 振动 信号 数据 样本 ， 
步 改进 网 络 结构 来 提高 识别 的 准确 率 。 
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